Diffractive optical networks provide rich opportunities for visual computing tasks since the spatial information of a scene can be directly accessed by a diffractive processor without requiring any digital pre-processing steps. Here we present data class-specific transformations all-optically performed between the input and output fields-of-view (FOVs) of a diffractive network. The visual information of the objects is encoded into the amplitude (A), phase (P), or intensity (I) of the optical field at the input, which is all-optically processed by a data class-specific diffractive network. At the output, an image sensor-array directly measures the transformed patterns, all-optically encrypted using the transformation matrices pre-assigned to different data classes, i.e., a separate matrix for each data class. The original input images can be recovered by applying the correct decryption key (the inverse transformation) corresponding to the matching data class, while applying any other key will lead to loss of information. The class-specificity of these all-optical diffractive transformations creates opportunities where different keys can be distributed to different users; each user can only decode the acquired images of only one data class, serving multiple users in an all-optically encrypted manner. We numerically demonstrated all-optical class-specific transformations covering A-->A, I-->I, and P-->I transformations using various image datasets. We also experimentally validated the feasibility of this framework by fabricating a class-specific I-->I transformation diffractive network using two-photon polymerization and successfully tested it at 1550 nm wavelength. Data class-specific all-optical transformations provide a fast and energy-efficient method for image and data encryption, enhancing data security and privacy.
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
We present a novel single-shot interferometric ToF camera targeted for precise 3D measurements of dynamic objects. The camera concept is based on Synthetic Wavelength Interferometry, a technique that allows retrieval of depth maps of objects with optically rough surfaces at submillimeter depth precision. In contrast to conventional ToF cameras, our device uses only off-the-shelf CCD/CMOS detectors and works at their native chip resolution (as of today, theoretically up to 20 Mp and beyond). Moreover, we can obtain a full 3D model of the object in single-shot, meaning that no temporal sequence of exposures or temporal illumination modulation (such as amplitude or frequency modulation) is necessary, which makes our camera robust against object motion. In this paper, we introduce the novel camera concept and show first measurements that demonstrate the capabilities of our system. We present 3D measurements of small (cm-sized) objects with > 2 Mp point cloud resolution (the resolution of our used detector) and up to sub-mm depth precision. We also report a "single-shot 3D video" acquisition and a first single-shot "Non-Line-of-Sight" measurement. Our technique has great potential for high-precision applications with dynamic object movement, e.g., in AR/VR, industrial inspection, medical imaging, and imaging through scattering media like fog or human tissue.
translated by 谷歌翻译
有效地保留和编码结构功能从不规则和稀疏点点中的对象中的对象是对点云上3D对象检测的关键挑战。最近,变形金刚在许多2D甚至3D视觉任务上都表现出了有希望的表现。与固定和刚性卷积内核相比,变压器中的自发机制可以适应地排除无关或嘈杂点,因此适合保留不规则的LIDAR点云中的局部空间结构。但是,Transformer仅根据自我发项机制对点特征执行简单的总和,所有点具有相同的价值变换。这种各向同性操作缺乏捕获面向方向距离的局部结构的能力,这对于3D对象检测很重要。在这项工作中,我们提出了一个结构插入变压器(Seformer),它不仅可以将本地结构保存为传统变压器,而且还可以编码本地结构。与传统变压器中的自我发挥机制相比,Seformer基于与查询点的相对方向和距离学习了价值点的不同特征变换。然后,我们提出了一个基于Seformer的网络,用于高性能3D对象检测。广泛的实验表明,所提出的体系结构可以在Waymo Open Datatet上实现SOTA结果,这是自动驾驶的最大3D检测基准。具体而言,Seformer获得79.02%的地图,比现有作品高1.2%。我们将发布代码。
translated by 谷歌翻译
大多数机器视觉任务(例如,语义分割)基于图像编码和解码的图像(例如JPEG)。但是,像素域中的这些解码图像引入了失真,并针对人类的感知进行了优化,从而使机器视觉任务的执行次优。在本文中,我们提出了一种基于压缩域的方法,以改善细分任务。i)提出了一种动态和静态通道选择方法,以减少通过编码获得的压缩表示的冗余。ii)探索和分析了两个不同的变换模块,以帮助将压缩表示形式转换为分割网络中的功能。实验结果表明,与最先进的压缩域的工作相比,我们可以节省多达15.8%的比特率,同时节省约83.6 \%的比特率和44.8%的推理时间,与Pixel-domain-相比基于方法。
translated by 谷歌翻译
无损图像压缩是图像压缩中必不可少的研究领域。最近,与传统的无损方法(例如WebP,JPEG2000和FLIF)相比,基于学习的图像压缩方法具有令人印象深刻的性能。但是,仍然有许多令人印象深刻的有损压缩方法可应用于无损压缩。因此,在本文中,我们探讨了广泛用于有损压缩的方法,并将其应用于无损压缩。受损失压缩显示的高斯混合模型(GMM)的令人印象深刻的性能的启发,我们与GMM生成了无损网络体系结构。除了注意到注意模块和自回归模型的成功成就外,我们建议利用注意模块,并为我们的网络体系结构中的原始图像添加额外的自动回归模型,以提高性能。实验结果表明,我们的方法优于大多数经典的无损压缩方法和现有基于学习的方法。
translated by 谷歌翻译
深度神经网络(DNN)容易受到对抗性示例的影响,其中DNN由于含有不可察觉的扰动而被误导为虚假输出。对抗性训练是一种可靠有效的防御方法,可能会大大减少神经网络的脆弱性,并成为强大学习的事实上的标准。尽管许多最近的作品实践了以数据为中心的理念,例如如何生成更好的对抗性示例或使用生成模型来产生额外的培训数据,但我们回顾了模型本身,并从深度特征分布的角度重新审视对抗性的鲁棒性有见地的互补性。在本文中,我们建议分支正交性对抗训练(BORT)获得最先进的性能,仅使用原始数据集用于对抗训练。为了练习我们整合多个正交解决方案空间的设计思想,我们利用一个简单明了的多分支神经网络,可消除对抗性攻击而不会增加推理时间。我们启发提出相应的损耗函数,分支 - 正交丢失,以使多支出模型正交的每个溶液空间。我们分别在CIFAR-10,CIFAR-100和SVHN上评估了我们的方法,分别针对\ ell _ {\ infty}的规范触发尺寸\ epsilon = 8/255。进行了详尽的实验,以表明我们的方法超出了所有最新方法,而无需任何技巧。与所有不使用其他数据进行培训的方法相比,我们的模型在CIFAR-10和CIFAR-100上实现了67.3%和41.5%的鲁棒精度(在最先进的ART上提高了 +7.23%和 +9.07% )。我们还使用比我们的训练组胜过比我们的方法的表现要大得多。我们所有的模型和代码均可在https://github.com/huangd1999/bort上在线获得。
translated by 谷歌翻译
学习的图像压缩允许达到最新的准确性和压缩比,但是它们相对较慢的运行时性能限制了其使用情况。尽管以前的尝试优化学习的图像编解码器的尝试更多地集中在神经模型和熵编码上,但我们提出了一种改善各种学习图像压缩模型的运行时性能的替代方法。我们介绍了多线程管道和优化的内存模型,以完全利用计算资源来启用GPU和CPU工作负载异步执行。仅我们的架构就已经产生了出色的性能,而没有改变神经模型本身。我们还证明,将架构与以前的调整结合到神经模型可以进一步提高运行时性能。我们表明,与基线相比,我们的实现在吞吐量和延迟中表现出色,并通过创建实时视频流编码器示例应用程序来证明我们的实现的性能,并在嵌入式设备上运行编码器。
translated by 谷歌翻译
离线模仿学习(IL)是从没有奖励标签的专家演示中解决决策问题的强大方法。由于协变量转移,现有的离线IL方法在有限的专家数据下遭受严重的性能变性。但是,包括学习的动力学模型可以潜在地改善专家数据的状态行动空间覆盖范围,但是,它也面临着诸如模型近似/概括/概括性错误和推出数据的次级优势之类的挑战性问题。在本文中,我们提出了基于歧视者指导的基于模型的离线模仿学习(DMIL)框架,该框架引入了一个歧视者,以同时区分模型推出数据的动力学正确性和次优性与真实专家示范。 DMIL采用了一种新颖的合作对抗学习策略,该策略使用歧视者指导和融合了政策和动态模型的学习过程,从而改善了模型性能和鲁棒性。当演示包含大量次优数据时,我们的框架也可以扩展到案例。实验结果表明,与小型数据集下的最新离线IL方法相比,DMIL及其扩展具有出色的性能和鲁棒性。
translated by 谷歌翻译
模型的可解释性对于许多实际应用是必不可少的,例如临床决策支持系统。在本文中,提出了一种新的可解释机学习方法,可以模拟人类理解规则中的输入变量与响应之间的关系。该方法是通过将热带几何形状应用于模糊推理系统构建的,其中通过监督学习可以发现可变编码功能和突出规则。进行了使用合成数据集的实验,以研究所提出的算法在分类和规则发现中的性能和容量。此外,将所提出的方法应用于鉴定心力衰竭患者的临床应用,这些患者将受益于心脏移植或耐用的机械循环支撑等先进的疗法。实验结果表明,该网络在分类任务方面取得了很大的表现。除了从数据集中学习人类可理解的规则外,现有的模糊域知识可以很容易地转移到网络中,并用于促进模型培训。从我们的结果,所提出的模型和学习现有领域知识的能力可以显着提高模型的概括性。所提出的网络的特征使其在需要模型可靠性和理由的应用中承诺。
translated by 谷歌翻译